ISSN 1998-0663 (print), English version: ISSN 2587-814X (print), |
Барахнин В. Б.1,2, Кожемякина О. Ю.2, Мухамедиев Р. И.3,4,5, Борзилова Ю. С.2, Якунин К. О.4,5Проектирование структуры программной системы обработки корпусов текстовых документов
2019.
№ 4 Vol.13.
С. 60–72
[содержание номера]
Одной из труднорешаемых задач в области интеллектуального анализа данных является разработка универсального инструментария для анализа текстов художественного и делового стиля. Популярным направлением развития алгоритмов обработки корпусов текстовых документов является использование методов машинного обучения, которые позволяют решать задачи обработки естественных языков. Основанием для проведения исследований в этой области являются такие факторы, как специфика структуры текстов художественного и делового стиля (что требует формирования отдельных наборов данных и, в случае использования методов машинного обучения, – дополнительных параметров при обучении), а также отсутствие укомплектованных систем массовой обработки корпусов текстовых документов для русского языка (в отношении научного сообщества в коммерческой среде существуют системы меньших масштабов, решающие узкоспециализированные задачи, например, определение тональности текста). Целью текущего исследования является проектирование и последующая разработка структуры системы обработки корпусов текстовых документов. При проектировании учитывались требования, предъявляемые к широкомасштабным системам: модульность, возможность масштабирования компонентов и их условная независимость. Проектируемая система представляет собой совокупность компонентов, каждый из которых сформирован и используется в виде Docker-контейнеров. Уровни системы: обработка данных, хранение данных, визуализация и управление результатами обработки данных. На уровне обработки данных выполняется сбор (скраппинг) текстовых документов (например, новостных событий) и их дальнейшая обработка с помощью ансамбля методов машинного обучения, каждый из которых реализован в системе как отдельная Airflow-задача. Полученные результаты помещаются для хранения в реляционную базу данных, а для увеличения быстродействия поиска по данным (более 1 млн. единиц) используется инструмент ElasticSearch. Визуализация статистики, полученной в результате работы алгоритмов, осуществляется с использованием плагина Plotly. Администрирование и просмотр обработанных текстов доступны через веб-интерфейс с использованием фреймворка Django. Общая схема взаимодействия компонентов организована по принципу ETL (extract, transform, load). В настоящее время система используется для анализа корпусов новостных текстов с целью сравнительного анализа параметров текстов и средств массовой информации в целом. В перспективе планируется усовершенствование системы и опубликование компонентов в открытом репозитории GitHub для доступа научного сообщества. Графическая аннотация
Библиографическое описание:
Барахнин В.Б., Кожемякина О.Ю., Мухамедиев Р.И., Борзилова Ю.С., Якунин К.О. Проектирование структуры программной системы обработки корпусов текстовых документов // Бизнес-информатика. 2019. Т. 13. № 4. С. 60–72. DOI: 10.17323/1998-0663.2019.4.60.72
Ключевые слова:
обработка естественных языков;
потоковая обработка текстов;
информационная система анализа текстов;
разработка системы обработки корпусов текстов
|
|